Telegram Group & Telegram Channel
Как использовать категориальные признаки в k-Means

Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».

🛠 Что можно сделать

📍 One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния.
📍 Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2).
📍 Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.

🔄 Альтернатива

Вместо k-Means для категориальных или смешанных данных лучше использовать:
📍 k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего).
📍 k-Prototypes — работает с числовыми и категориальными данными одновременно.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/965
Create:
Last Update:

Как использовать категориальные признаки в k-Means

Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».

🛠 Что можно сделать

📍 One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния.
📍 Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2).
📍 Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.

🔄 Альтернатива

Вместо k-Means для категориальных или смешанных данных лучше использовать:
📍 k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего).
📍 k-Prototypes — работает с числовыми и категориальными данными одновременно.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/965

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Telegram announces Search Filters

With the help of the Search Filters option, users can now filter search results by type. They can do that by using the new tabs: Media, Links, Files and others. Searches can be done based on the particular time period like by typing in the date or even “Yesterday”. If users type in the name of a person, group, channel or bot, an extra filter will be applied to the searches.

What is Secret Chats of Telegram

Secret Chats are one of the service’s additional security features; it allows messages to be sent with client-to-client encryption. This setup means that, unlike regular messages, these secret messages can only be accessed from the device’s that initiated and accepted the chat. Additionally, Telegram notes that secret chats leave no trace on the company’s services and offer a self-destruct timer.

Библиотека собеса по Data Science | вопросы с собеседований from nl


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA